【GPT】开源 | 视觉和视觉语言任务中的自然语言解释模型NLX-GPT

实时分享CVPR、ECCV等会议,关注深度学习、自动驾驶领域,我们期待你的加入。点击上方“CNNer”,选择加“星标”或“置顶”精选干货,当日达。

         

获取完整原文和代码,公众号回复:11020384708

         

论文地址: http://arxiv.org/pdf/2203.05081v1.pdf

代码: 公众号回复:11020384708

来源: Vrije Universiteit Brussel

论文名称:NLX-GPT: A Model for Natural Language Explanations in Vision and Vision-Language Tasks

原文作者:Fawaz Sammani

         

内容提要

自然语言解释(NLE)模型旨在通过生成对人类友好的、高级的和细粒度的自然语言句子来解释黑盒系统的决策过程。当前的NLE模型通过语言模型(又名解释模型)(例如GPT)解释了视觉或视觉-语言模型(又名任务模型)的决策过程,例如VQA模型。除了任务模型需要额外的内存资源和推理时间外,任务模型和解释模型是完全独立的,这将解释从预测答案的推理过程中分离出来。我们引入NLX-GPT,这是一个通用的、紧凑的、忠实的语言模型,可以同时预测答案和解释答案。我们首先对图像-标题对的大规模数据进行预训练,以对图像进行一般理解,然后将答案与解释一起制定为文本预测任务。在没有区域建议和任务模型的情况下,我们的整体框架获得了更好的评估分数,包含的参数更少,比当前的SoA模型快15倍。然后,我们解决了评估解释的问题,这些解释可能在很多时候是通用的,有数据偏见的,可以有几种形式。因此,我们设计了2个新的评估措施(1)解释-预测和(2)基于检索的攻击,这是一个不需要标签的自我评估框架。

主要框架及实验结果

         【GPT】开源 _ 视觉和视觉语言任务中的自然语言解释模型NLX-GPT

【GPT】开源 _ 视觉和视觉语言任务中的自然语言解释模型NLX-GPT

声明:文章来自于网络,仅用于学习分享,版权归原作者所有,侵权请加上文微信联系删除。

分享最新的CVPR、ECCV、ICCV、IROS人工智能论文,关注深度学习、自动驾驶领域。

【GPT】开源 _ 视觉和视觉语言任务中的自然语言解释模型NLX-GPT           

长按关注▲                  长按加微信▲

备注:研究方向+地点+学校/公司+昵称,更快通过申请,长按加细分领域技术交流群,目前有细分领域:图像分割、图像目标检测、论文写作、车道检测、模型优化、目标跟踪、SLAM、点云处理(分割检测)、深度学习。

         

点个“在看”,让我知道你的爱

返回:【GPT】开源 | 视觉和视觉语言任务中的自然语言解释模型NLX-GPT

本文由“公众号文章抓取器”生成,请忽略上文所有联系方式或指引式信息。有问题可以联系:五人工作室,官网:www.Wuren.Work,QQ微信同号1976.424.585